#디퓨전 모델

인터페이즈, 6개국어 지원 오픈소스 디퓨전 ASR 모델 공개

인터페이즈(Interfaze)는 기존 자기회귀 방식이 아닌 디퓨전(Diffusion) 기술을 적용하여 6개 국어를 전사할 수 있는 다국어 음성 인식(ASR) 모델을 오픈소스로 공개했습니다. 이 모델은 구글의 언어 모델에 약 4,200만 개의 매개변수(Parameter)를 가진 어댑터(Adapter)를 결합해 음성 입력을 처리하며, 전사 비용이 텍스트 길이가 아닌 노이즈 제거(Denoising) 단계에 따라 결정된다는 점에서 큰 의의가 있습니다.

음성 인식 디퓨전 모델 오픈소스

Hacker News • 34일 전

IMP 8

인간의 상상을 초월한 AI의 무선 칩 설계

프린스턴 대학교 연구진은 강화 학습과 디퓨전 모델을 활용해 인간의 직관을 필요로 하던 복잡한 RFIC(무선 주파수 집적 회로) 설계 과정을 혁신적으로 단축했습니다. AI가 설계한 칩은 기존 방식을 뛰어넘는 성능을 기록했으며, 향후 5G, 자율주행차 등 차세대 무선 통신 기술 발전의 병목 현상을 해결할 핵심 기술로 평가받습니다.

RFIC 설계 강화 학습 디퓨전 모델

The Decoder • 48일 전

IMP 8

구글 디퓨전제마, 단어별 생성 대신 노이즈 기반 텍스트 생성

구글이 기존의 단어 단연 순차 생성 방식이 아닌, 이미지 AI에서 쓰이는 디퓨전 방식을 적용해 한 번에 256개의 토큰 블록을 생성하는 실험적 언어 모델 '디퓨전제마(DiffusionGemma)'를 공개했습니다. 이 모델은 GPU의 연산 능력을 극대화하여 단일 사용자 환경에서 기존 모델 대비 최대 4배 빠른 처리 속도를 보여줍니다. 비록 텍스트 품질은 기존 모델에 미치지 못하지만, 기존 텍스트 중간 삽입이나 코드 빈칸 채우기 등 비선형 작업에 탁월한 성능을 발휘하며 새로운 활용 가능성을 제시합니다.

구글 디퓨전제마 오픈소스 모델

Hacker News • 48일 전

IMP 9

디퓨전 젬마: 기존 대비 4배 빠른 텍스트 생성

구글이 텍스트를 병렬로 동시 생성하는 오픈소스 모델 'DiffusionGemma(디퓨전 젬마)'를 공개했습니다. 기존의 순차적 토큰 생성 방식을 탈피하여 단일 GPU에서 초당 1,000개 이상의 토큰을 생성하며, 고성능 소비자용 GPU에서도 원활하게 구동되는 것이 특징입니다. 양방향 어텐션(Bi-directional attention) 메커니즘을 통해 자가 교정 및 코드 삽입과 같은 비선형 텍스트 작업에 강점을 발휘하여 실시간 AI 애플리케이션 개발에 중요한 역할을 할 전망입니다.

디퓨전 모델 대형 언어 모델 (LLM) 오픈소스 AI

Hacker News • 52일 전

IMP 8

학습 없이 1초 만에 고품질 이미지 생성하는 단일 이미지 디퓨전 모델

단 한 장의 이미지만으로 새로운 이미지를 생성하는 디퓨전 모델이 제안되었습니다. 기존 방식과 달리 신경망 학습 과정 없이, 이미지를 다양한 크기의 패치(Patch)로 분해하여 수학적으로 최적화된 노이즈 제거(Denoising) 기법을 적용했습니다. 이를 통해 기존 대비 최고 수준의 생성 품질을 달성함과 동시에, 1초 만에 메가픽셀 이미지 생성이 가능할 정도로 연산 속도를 혁신적으로 높였습니다.

디퓨전 모델 이미지 생성 비학습형 AI

MarkTechPost • 56일 전

IMP 8

엔비디아, 물리 추론·세계 생성 통합한 '코스모스 3' 공개

엔비디아가 자율주행 및 로봇 공학 등 물리적 AI 구축을 위해 멀티모달 기반의 오픈 세계 모델 '코스모스 3(Cosmos 3)'를 공개했습니다. 이 모델은 물리적 상황을 이해하는 자가회귀 VLM 추론기와 현실적인 환경을 만들어내는 디퓨전 생성기를 결합하여, 실제 환경 데이터 없이도 효율적으로 물리 AI를 훈련시킬 수 있게 해줍니다. 이는 자율 시뮬레이션 환경 구축에 소요되는 시간과 비용을 혁신적으로 줄여준다는 점에서 실무자들에게 매우 중요한 의미를 갖습니다.

엔비디아 코스모스 3 물리 AI

r/LocalLLaMA • 63일 전

IMP 8

PrismML, 로컬 브라우저 구동 텍스트-이미지 모델 발표

PrismML팀이 1비트와 3진법 가중치를 활용한 텍스트-이미지 디퓨전 트랜스포머인 Binary 및 Ternary Bonsai Image 4B를 공개했습니다. 기존 FLUX.2 Klein 4B 모델(약 16GB)과 비교해 약 3GB 수준으로 크기를 획기적으로 줄이면서도 WebGPU를 통해 브라우저 내에서 완벽하게 로컬 구동이 가능합니다. Apache-2.0 라이선스로 제공되어 누구나 제한 없이 사용하고 변형할 수 있는 오픈소스 모델이라는 점이 가장 큰 의의입니다.

오픈소스 이미지 생성 로컬 구동

r/LocalLLaMA • 74일 전

IMP 8

Orthrus-Qwen3-8B: 동일 출력 분포 유지하며 토큰 처리 속도 최대 7.8배 향상

기존 언어모델(Qwen3-8B)의 가중치를 고정한 채 학습 가능한 디퓨전 어텐션 모듈을 삽입해 모델의 원래 성능과 출력을 완벽하게 유지하면서도 토큰 처리 속도를 최대 7.8배까지 끌어올린 기술입니다. 기존의 디퓨전 기반 모델들이 성능 저하를 겪거나, 추측 디코딩(Speculative Decoding) 방식이 별도의 모델 초기화로 인해 지연 시간(TTFT) 페널티를 받는 것과 달리, 오버헤드 없이 압도적인 수용 길이(11.7)를 달성했다는 점이 핵심입니다.

추론 속도 최적화 디퓨전 모델 Qwen3

Hacker News • 83일 전

IMP 8

디퓨전 모델의 적분 학습과 플로우 맵

디퓨전 모델의 샘플링 속도를 획기적으로 높이기 위해 중간의 반복적인 단계를 건너뛰고 적분값을 직접 예측하는 '플로우 맵(Flow Map)' 기술을 소개하는 글입니다. 플로우 맵은 단순히 샘플링 속도만 개선하는 것을 넘어 보상 기반 학습의 효율성과 샘플링 제어 능력을 향상시키는 등 다양한 장점을 제공합니다. 최근 AI 연구 분야에서 매우 주목받고 있으며, 기존 디퓨전 모델의 한계를 극복할 대안으로 떠오르고 있습니다.

디퓨전 모델 플로우 맵 딥러닝

Hacker News • 106일 전

IMP 9

내향적 디퓨전 언어 모델(I-DLM)

디퓨전 언어 모델(DLM)의 한계를 극복하고 자기회귀(AR) 모델과 동등한 성능을 달성한 내향적 디퓨전 언어 모델(I-DLM)을 소개합니다. 이 모델은 기존 DLM이 가진 '내향적 일관성' 부족 문제를 해결하여, 절반 크기의 파라미터로도 대형 모델들을 능가하는 추론 및 코딩 성능을 보여줍니다. 또한 동시 처리 시 높은 처리량을 제공하며 기존 AR 서빙 인프라와 완벽하게 호환된다는 점에서 실무적으로 매우 중요한 의미를 갖습니다.

디퓨전 모델 언어 모델 자기회귀 모델

r/LocalLLaMA • 112일 전

IMP 8

초고속 스펙큘레이터 디코딩을 위한 블록 디퓨전 기술

z-lab 연구팀이 텍스트 생성 속도를 극적으로 높이는 새로운 접근법인 'DFlash'를 공개했습니다. 이 기술은 블록 디퓨전(Block Diffusion)을 활용해 기존의 한계를 벗어난 스펙큘레이터 디코딩(Speculative Decoding)을 구현하여 대형 언어 모델의 실제 추론 처리량을 크게 향상시킵니다. 프로젝트 페이지, 깃허브(GitHub) 오픈소스 코드, 허깅페이스(Hugging Face) 모델 데이터셋이 함께 공개되어 실무자들이 즉시 테스트하고 적용해볼 수 있습니다.

스펙큘레이터 디코딩 디퓨전 모델 추론 가속화